Ciencia de Datos para Economistas
Clase 8- Inspeccionar Data Frames
Varios y Puntos Pendientes
intervenciones en clase 13-11 sobre la visualizaciones que se hagan con ggplot2 que viene de tarea clase 5. Cambio de fecha del 11-11 al 13-11
Modificación tarea clase 5 ggplot
Tareas clase 7 (entrega 13 y 18) y clase 8 (20-11)
Clase 6 práctica 1 construccion vectores
Objetivo
Presentar operadores lógicos y trabajar con ellos
Acceder a elementos de vectores y DF’s según condiciones lógicas
Inspeccionar valores, rangos y estructura de una DF
Tabla de Contingencia
Cantidad cilindros por observación
Conteo de frecuencia de un dato categórico
Tabla de Contingencia Cruzada
Múltiples categorías
cyl |
Number of cylinders |
vs |
Engine (0 = V-shaped, 1 = straight) |
Tabla Resumen Estadístico
Representar los valores mínimo y máximo, primer y tercer cuartil, media, promedio de un vector o data frame.
Tabla Resumen Estadístico - cont
La salida de función summary cambia según el objeto que estemos trabajando
Operadores Lógicos
- \(>\) (mayor a)
- \(>=\) (mayor o igual a)
- \(<\) (menor a)
- \(<=\) (menor o igual a)
- \(==\) (igual a)
- \(!=\) (distinto a)
- & (y)
- \(|\) (o)
Uso de Operadores Lógicos en un Vector
Vector seleccionado “millas por galón” mpg
Vector Lógico con valores que Cumplen una Condición
Mayor que un valor dado
Vector Lógico con valores que Cumplen una Condición -cont.
Mayor que el valor que retorna una función
Asignación valores a variables
variable con promedio
creación df
evaluar valores que cumplen ambas condiciones
Reforzar con lectura propuesta en Tarea Clase 8 sobre “Tabla de Verdad”.
Inspección DF que Cumple Condiciones
Forma vectorizada:
Se aplica el condicional lógico sobre el elemento i del vector analizado teniendo de resultado un vector del mismo length del vector de entrada.
Por ejemplo, si i vale 3, se compara si 22.8 es mayor que el promedio_mpg y si es menor que valor_3ercuartil
Múltiples Condiciones
Operador & (y)
Operador == doble igualdad (👀 es distinto a asignación)
which indica el índice de los elementos extraídos según una condición
Múltiples Condiciones - cont
Operador != diferente
Múltiples Condiciones - cont 2
Operador | or (o)
Data Frame a Trabajar
Sobre el contenido de la df: según la hipótesis del ahorro a lo largo del ciclo vital desarrollada por Franco Modigliani, el coeficiente de ahorro (ahorro personal agregado dividido por la renta disponible) se explica por la renta disponible per cápita, la tasa porcentual de variación de la renta disponible per cápita y dos variables demográficas: el porcentaje de población menor de 15 años y el porcentaje de población mayor de 75 años. Los datos se promedian a lo largo de la década 1960-1970 para eliminar el ciclo económico u otras fluctuaciones a corto plazo
Asignar a una variable la DF
Inspección Data Frame
Dimensiones
Número de columnas
Inspección Data Frame -cont
Número de filas
Nombres de las columnas
Inspección Data Frame -cont2
Nombres de las filas
Inspección Data Frame -cont3
Estructura de un objeto
Inspección Data Frame -cont4
Resumen Estadístico
Crear Columna con Nombre Países
Revisar nombres filas
Asignar nueva columa a la DF
Inspección Nuevo Atributo
Revisar DF
Funciones Valores Extremos
Mínimo en vector
Máximo en vector
Importar en Formato csv una Data Frame
👀: los datos tienen estructura tabular. Observaciones son filas y atributos las columnas
Estructura Gapminder
Estructura DF
Tabla Sumario Gapminder
Tiene estructura tabular
Valores Únicos por Atributo
Países
Valores Únicos por Atributo - cont
Años
DPLYR (🏇🏽 de batalla)
Una gramática para la manipulación de datos.
DPLYR / Filtrado
Función filter.
Encadenamiento en los procesamientos: operador pipe %>%
Revisar Tabla Venezuela
Tabla sumario
Juntar DF´s
Combinar DF’s
Función bind_rows